Scaled Dot-Product Attention 的公式中为什么要除以 $\sqrt{d_k}$?

ScaledDot-ProductAttention的公式中为什么要除以\(\sqrt{d_k}\)?在学习ScaledDot-ProductAttention的过程中,遇到了如下公式\[\mathrm{Attention}(\math...